第2章 異星人を人間に適合させる
#これからのAI、正しい付き合い方と使い方
人類滅亡のリスク
ASIとなったクリッピー
アライメントを適切に行われたAIと行われていないAI
アライメント問題の解決については本書では扱わない...
暴走防止のためのガードレール
偏見を減らす最も一般的なアプローチ
→人間が直接AIを修正(
人間のフィードバックによる強化学習(RLHF)
)
道徳的に振る舞うようRLHFを行う
ガードレールを突破する方法
プロンプトインジェクション
演劇の練習の体でナパーム弾の作り方を聞くなど